连接派时间分类(CTC)的模型在自动语音识别(ASR)方面具有吸引力,因为它们的非自动性性质。为了利用仅文本数据,语言模型(LM)集成方法(例如重新纠正和浅融合)已被广泛用于CTC。但是,由于需要降低推理速度,因此他们失去了CTC的非自动性性本质。在这项研究中,我们提出了一种使用电话条件的蒙版LM(PC-MLM)的误差校正方法。在提出的方法中,掩盖了来自CTC的贪婪解码输出中的较不自信的单词令牌。然后,PC-MLM预测这些蒙版的单词令牌给定的单词和手机补充了CTC。我们进一步将其扩展到可删除的PC-MLM,以解决插入错误。由于CTC和PC-MLM均为非自动回旋模型,因此该方法可以快速LM集成。在域适应设置中对自发日本(CSJ)和TED-LIUM2语料库进行的实验评估表明,我们所提出的方法在推理速度方面优于重新逆转和浅融合,并且在CSJ上的识别准确性方面。
translated by 谷歌翻译
Connectionist时间分类(CTC)的模型很有吸引力,因为它们在自动语音识别(ASR)中的快速推断。语言模型(LM)集成方法(例如浅融合和重新恢复)可以通过利用文本语料库的知识来提高基于CTC的ASR的识别准确性。但是,它们大大减慢了CTC的推论。在这项研究中,我们建议提炼基于CTC的ASR的BERT知识,从而扩展了我们先前针对基于注意的ASR的研究。基于CTC的ASR在训练过程中学习了BERT的知识,并且在测试过程中不使用BERT,从而维持CTC的快速推断。与基于注意力的模型不同,基于CTC的模型做出了框架级预测,因此它们需要与BERT的令牌级预测进行蒸馏。我们建议通过计算最合理的CTC路径来获得比对。对自发日语(CSJ)和TED-LIUM2语料库的实验评估表明,我们的方法改善了基于CTC的ASR的性能,而无需推理速度成本。
translated by 谷歌翻译
Generative models, particularly GANs, have been utilized for image editing. Although GAN-based methods perform well on generating reasonable contents aligned with the user's intentions, they struggle to strictly preserve the contents outside the editing region. To address this issue, we use diffusion models instead of GANs and propose a novel image-editing method, based on pixel-wise guidance. Specifically, we first train pixel-classifiers with few annotated data and then estimate the semantic segmentation map of a target image. Users then manipulate the map to instruct how the image is to be edited. The diffusion model generates an edited image via guidance by pixel-wise classifiers, such that the resultant image aligns with the manipulated map. As the guidance is conducted pixel-wise, the proposed method can create reasonable contents in the editing region while preserving the contents outside this region. The experimental results validate the advantages of the proposed method both quantitatively and qualitatively.
translated by 谷歌翻译
消费者经常阅读产品评论以告知他们的购买决定,因为一些消费者想了解产品的特定组成部分。但是,由于产品评论上的典型句子包含各种详细信息,因此用户必须在许多评论中识别有关他们想知道的组件的句子。因此,我们旨在开发一个系统,以识别和收集句子中产品的组件和方面信息。我们基于BERT的分类器分配了标签,这些标签参考了评论中的句子和句子的各个方面,并提取有关特定组件和方面的评论的句子。我们根据产品评论的模式匹配来确定的单词确定了适当的标签,以创建培训数据。因为我们无法将单词用作标签,所以我们仔细创建了涵盖单词含义的标签。但是,培训数据在组件和方面对不平衡。我们使用WordNet介绍了一种数据增强方法来减少偏差。我们的评估表明,该系统可以使用图案匹配来确定道路自行车的标签,涵盖了88%以上的电子商务网站上的组件和方面指标。此外,我们的数据增强方法可以从0.66到0.76提高F1的F1量度。
translated by 谷歌翻译
本文介绍了社会团体活动识别的新框架。作为集团活动识别的一项扩展任务,社会群体活动识别需要识别多个子组活动并识别小组成员。大多数现有方法通过完善区域功能来解决这两个任务,然后将它们汇总到活动特征中。这样的启发式功能设计使特征的有效性易于不完整的人本地化,并无视场景上下文的重要性。此外,区域特征是识别小组成员的次优最佳选择,因为这些特征可能由该地区的人群主导并具有不同的语义。为了克服这些缺点,我们建议利用变形金刚中的注意力模块来产生有效的社会群体特征。我们的方法的设计方式使注意力模块识别,然后汇总与社会团体活动相关的特征,从而为每个社会群体产生一个有效的功能。小组成员信息嵌入到功能中,从而通过馈电网络访问。馈送网络的输出代表组,因此可以通过组和个人之间的简单匈牙利匹配来识别小组成员。实验结果表明,我们的方法优于排球和集体活动数据集的最先进方法。
translated by 谷歌翻译
了解表格数据的语义含义需要实体链接(EL),以便将每个单元格值与知识库(KB)中的现实世界实体相关联。在这项工作中,我们将重点放在EL的端到端解决方案上,这些解决方案不依赖于目标KB中的事实查找。表格数据包含异质和稀疏上下文,包括列标题,单元格值和表格字幕。我们尝试各种模型,以生成要链接的每个单元格值的向量表示。我们的结果表明,应用注意机制和注意力面罩至关重要,这样模型只能关注最相关的环境并避免信息稀释。最相关的上下文包括:相同的单元格,相同的细胞,标题和标题。然而,计算复杂性随着这种复杂模型的表格数据的大小而倍增。我们通过引入链接Lite模型(Tell)的表格实体来实现恒定的内存使用情况,该模型仅基于其值,表格标题和表格字幕,为单元格生成向量表示。告诉Wikipedia表上的精度达到80.8%,比具有二次内存使用情况的最新模型低0.1%。
translated by 谷歌翻译
在最近的计算机视觉研究中,Vision Transformer(VIT)的出现迅速彻底改变了各种建筑设计工作:VIT使用自然语言处理中发现的自我注意力实现了最新的图像分类性能,而MLP-Mixer实现了使用简单多层感知器的竞争性能。相比之下,一些研究还表明,精心重新设计的卷积神经网络(CNN)可以实现与VIT相当的先进性能,而无需诉诸这些新想法。在这种背景下,越来越多的感应偏见适合计算机视觉。在这里,我们提出了Sequencer,这是VIT的一种新颖且具有竞争力的体系结构,可为这些问题提供新的看法。与VIT不同,音序器使用LSTM而不是自我发项层模型的远程依赖性。我们还提出了二维版本的音序器模块,其中LSTM分解为垂直和水平LSTM,以增强性能。尽管它很简单,但一些实验表明,Sequencer表现出色:Sequencer2d-L,具有54m参数,​​仅在Imagenet-1K上实现了84.6%的TOP-1精度。不仅如此,我们还表明它具有良好的可传递性和在双分辨率波段上具有强大的分辨率适应性。
translated by 谷歌翻译
二次无约束的二进制优化(QUBO)求解器可以应用于设计最佳结构以避免共振。在经典或量子设备上使用的QUBO算法在某些工业应用中取得了成功。但是,由于难以从原始优化问题转变为QUBO,它们的应用仍受到限制。最近,已经提出了黑盒优化(BBO)方法,可以使用机器学习技术和贝叶斯治疗来解决此问题,以进行组合优化。我们采用了BBO方法来设计印刷电路板以避免共振。该设计问题是为了最大程度地提高固有频率并同时最大程度地减少安装点的数量。固有频率是QUBO公式的瓶颈,在BBO方法中近似于二次模型。我们证明,使用分解机的BBO在计算时间和找到最佳解决方案的成功概率中都表现出良好的性能。我们的结果可以打开Qubo求解器在结构设计中的其他应用的潜力。
translated by 谷歌翻译
深入学习已被利用气候数据的统计侦查。具体地,已经成功地应用于降水估计的二维(2D)卷积神经网络(CNN)。该研究实现了一种三维(3D)CNN,以估计来自3D大气数据的流域规模的每日降水,并将结果与2D CNN的结果进行比较。沿时间方向(3D-CNN-TIME)和垂直方向(3D-CNN-VERT)延伸2D CNN。将这些扩展CNN的降水估计与第2D CNN的降水估计与根均方误差(RMSE),NASH-SUTCLIFFE效率(NSE)和第99百分位RMSE相比。发现3D-CNN-TIME和3D-CNN-VERT与2D CNN相比提高了降水估计的模型精度。3D-CNN-VERT在RMSE和NSE方面提供了培训和测试期间的最佳估计。
translated by 谷歌翻译
深度神经网络(DNN)如此过度参数化,最近的研究发现它们已经在随机初始化状态下具有高精度的子网。找到这些子网是一种可行的替代培训方法,可以重量学习。并行地,另一行工作已经假设了深度残差网络(Resnet)正在尝试近似浅反复性神经网络(RNN)的行为,并且已经提出了一种将它们压缩成复发模型的方法。本文提出将这些研究融合成高度压缩但准确的模型:隐藏网络(HFN)。通过将reset折叠成反复化结构,然后搜索隐藏在随机初始化模型内的准确子网,获得了高性能的尚未更新的HFN而不更新权重。因此,HFN在CIFAR100上归因于RESET50的等效性能,同时占据38.5倍较少的内存,以及在ImageNet上的类似性能,内存大小为26.8x。当在高度量化和随机加权的DNN推理加速器上运行时保持准确时,HFN将变得更具吸引力。在https://github.com/lopez-angel/hidden-fold-networks提供的代码
translated by 谷歌翻译